¿La atención es solo acoplamiento? Una perspectiva ODE jerárquica Explora cómo el acoplamiento en transformers se modela con ecuaciones rápido-lento. Jerarquico sin ganancia de rendimiento pero con interpretacion teorica. 2026-06-16 · 2 min